脑科学麻烦了:fMRI 分析爆重大缺陷,70%的假阳性率让人怎么办?
瑞典科学家下载了大量脑科学的功能性磁共振成像数据进行分析后发现:fMRI 软件在判断脑活动时会出现极高概率的假阳性。另外,他们还发现了软件中一个潜藏了 15 年的 Bug。
来源 arstechnica
撰文 John Timmer
翻译 徐寒易
审校 紫苏
毫不夸张地说,功能性磁共振成像(fMRI)给神经科学领域带来了翻天覆地的变化。当不同脑区的活跃程度发生变化,血流量也会相应改变,神经科学家用核磁共振仪搜集各个脑区血流量变化情况。利用这个技术他们可以非侵入性地找出负责处理不同任务(比如玩经济学博弈游戏,或是阅读文字)的脑区。
不过这种研究方法和使用者都受到了不少批评。有人担心,这个技术夸大了我们阅读人类心智的能力。有一些人则指出,对于 fMRI 数据的不当分析可能会产生误导的结论,比如一项研究关于。
虽然上述问题常由拙劣的统计方法造成,但是一项发表在《美国国家科学院院刊》(PNAS)上的研究(Eklund, Anders, Thomas E. Nichols, and Hans Knutsson. "Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates."Proceedings of the National Academy of Sciences(2016): 201602413. 论文基本信息见文章末尾)指出,问题要严重得多。fMRI 分析中涉及到的一些基本算法会产生假阳性“信号”,并且频率高到令人担忧。
fMRI 背后的原理很简单:神经活动需要消耗能量,消耗掉的能量需要补充。这意味着新近活跃的脑区的血流量会增加。高分辨率的 MRI 可以得到这种血流量数据,研究人员借此识别执行某项任务时被激活的脑结构。
然而,这种理论在实际中的应用相当复杂。成像过程将大脑分割成被称为体素的细小三维单位,然后分别记录在每个体素中的活跃度。
由于体素非常之小,软件必须对整体进行检查,找寻“聚群”(clustering)——一群行为相似的相邻体素。死鲑鱼研究的显著性结果是因为该软件默认配置成无法处理目前 MRI 仪扫描输出的巨量体素值。也就是说即使在 95% 的置信水平上,假阳性也不可避免。
这项新研究的作者是一队瑞典研究者。他们提出该软件还存在其他问题。他们利用了最近兴起的公开数据的潮流,下载了几百个其他研究中的 fMRI 扫描数据,然后自己进行的分析。
他们主要关注静息态的大脑,这在对特定脑活动进行的研究中常作为比照的控制组。静息态数据中,一些受试者可能显示出特定脑活动,比如移动腿部或是思考晚餐;但是总体而言,接受扫描的人脑中不应出现一致性的、系统性的信号。
研究作者一开始收集了大量原本作为控制组的数据,然后从中随机选取了一些作为控制组,另一些作为“实验”样本。然后他们将这个过程重复了几千次,把数据输入 3 个软件包中的一个进行分析。他们微调了参数,来看参数如何对结果产生的影响。
研究结果对于使用 fMRI 的人来说并不是什么好消息。“简而言之,”作者们总结道,“我们发现所有 3 个软件包用体素得出的推论都很保守,而用聚群分析却得出了无效的推断。”
换句话说,软件在判断某个体素是否显示出脑活动时非常谨慎,而聚群识别的算法却常常把一个没有进行脑活动的区域识别为表现出了脑活动。这有多频繁呢?根据算法和使用的参数的不同,可得到高达 70%的假阳性。
雪上加霜的是,测试过程显示了一个潜伏了15年的编码漏洞。填补这个漏洞后假阳性减少了超过10%。虽然这个漏洞被修复了,但是却有那么多发表出来的论文是用出错的版本分析的,真是太悲剧了。
研究人员还发现,一些脑区更可能出现假阳性的问题是因为算法对大脑的形态存在一定假设。
事实真的这么糟糕吗?作者们认为的确如此。“我们的研究质疑了无数基于参数智能聚群推断的已发表的 fMRI 研究的有效性。”虽然不清楚到底有多少论文涉及这个问题,但是用 fMRI 做的研究中可能有很一大部分牵涉其中,估计涉及4万名作者。
作者们还注意到,目前的公开数据行动让任何人都可以容易地追溯研究,并以新的思路更小心地重新分析原始研究的数据。但是大多数已发表论文的数据还未公开,所以现在并没有很多的事情可做,除了在以后的研究中更加小心。
原文链接:http://arstechnica.com/science/2016/07/algorithms-used-to-study-brain-activity-may-be-exaggerating-results/
论文基本信息
【题目】Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates
【作者】Anders Eklund, Thomas E. Nichols, and Hans Knutsson
【期刊】PNAS
【日期】Approved May 17, 2016
【doi】10.1073/pnas.1602413113
【摘要】The most widely used task functional magnetic resonance imaging (fMRI) analyses use parametric statistical methods that depend on a variety of assumptions. In this work, we use real resting-state data and a total of 3 million random task group analyses to compute empirical familywise error rates for the fMRI software packages SPM, FSL, and AFNI, as well as a nonparametric permutation method. For a nominal familywise error rate of 5%, the parametric statistical methods are shown to be conservative for voxelwise inference and invalid for clusterwise inference. Our results suggest that the principal cause of the invalid cluster inferences is spatial autocorrelation functions that do not follow the assumed Gaussian shape. By comparison, the nonparametric permutation test is found to produce nominal results for voxelwise as well as clusterwise inference. These findings speak to the need of validating the statistical methods being used in the field of neuroimaging.
【链接】http://www.pnas.org/content/early/2016/06/27/1602413113
内容合作请联系
keyanquan@huanqiukexue.com,
或者给010-85321181打电话。
这里是“科学美国人”中文版《环球科学》服务科研人的微信号“科研圈”。我们:
· 关注科学进展与科研生态
· 推荐重要前沿研究
· 发布科研招聘
· 推送学术讲座与会议预告。
欢迎长按二维码关注。